查看原文
科技分析

【深度】BladeBit 进行 Chia 耕种分析

河马/HemaDAO HemaDAO 2023-08-30


BladeBit 版本:v3.0.0-alpha4

采矿科学报告 v1.0  2023年8月28日


版本历史初始版本v1.0(2023年8月28日)


1.概述

Chia 于 2021 年出现,致力于成为一种高效节能的加密货币,它利用硬盘空间,而不是用 GPU 或 ASIC 完成繁重的计算。Chia 农民创建了地块(“绘图“plotting”)并将其保留在网上以赚取加密货币(“耕种“farming”)。许多Chia农民为了提高能源效率优化了设备运行方案,其中一些农民采用功率较低的设备,同时减少了电力消耗。在Chia的早期,通过在相对不大的区块链网络存储空间中占据更大比例,相比其他农场,利润可以从快速的空间增长中受益。然而,随着总净空间的增长,农场总规模和电力效率成为利润的关键要素。

2023年的今天,情况与Chia初期相比已经发生了明显的变化。世界许多地区的电力成本上涨,Chia 的加密货币价格从 2021 年开始有所下降。然而,对于那些专注的农民来说,一个新的考虑因素出现了:地块压缩。多种地块压缩方式(例如 MadMax Gigahorse、NoSSD、BladeBit CUDA)允许农民在相同的存储空间中存储更多地块。然而,代价是增加了 GPU 或 CPU 的使用,从而导致能源成本变得更高。Chia农民在决定创建新的压缩地块或保留现有的未压缩地块之前,会遇到各种各样的问题,这是可以理解的。

本文重点分析BladeBit CUDA压缩。截至撰写本文时,BladeBit CUDA 开发仍在进行中,因此即将推出的版本可能具有不同的性能配置文件。该软件的测试版本支持各种压缩设置(压缩级别 1 到 9),还可以生成未压缩的绘图(压缩级别 0)。注意:此版本不支持压缩级别 8,压缩级别 9 的绘图大小尚未最终确定。

在本文中,我们将研究 BladeBit CUDA 的性能,以回答几个关键问题:

  1. 使用GPU创建BladeBit压缩图需要多长时间?

  2. 创建不同级别的压缩图所需的GPU功耗是多少?

  3. 对于不同的压缩级别,所达到的压缩绘图大小是多少? 

  4. 对于CUDA耕种,耕种地块需要多少CPU和GPU使用率?

  5. 对于在没有GPU的情况下耕作压缩地块,使用高端CPU比台式CPU有多少好处?

  6. 高压缩级别是否绝对需要GPU,或者是否可以利用强大的CPU来处理高压缩级别的绘图?

  7. CPU与GPU耕作的功耗权衡是什么?

硬件配置

对于这些测试,我们调查了多个具有不同 CPU 和 GPU 的系统,以评估各种 CPU 和 GPU 在执行压缩耕种时的相对优点。我们使用一台工作站(配备 Xeon W5-2455X CPU 的 Dell Precision 5860)和三个分别使用 Core i9 12900k、Core i9 11900k 和 Core i9 9900k 的台式机进行比较。

对于我们的工作站配置,我们使用2023年4月发布的新型Dell Precision 5860工作站。这款新型单工作站工作站采用英特尔第四代可扩展Xeon处理器(“Sapphire Rapids”),并具有8个注册ECC DDR5 内存插槽。Dell Precision 5860 可与 W-24XX 系列 CPU(4 个通道内存、最多 24 核/48 线程、64 PCIe 5 个通道)一起订购。更多的 Xeon W-34XX 可与更大的 Dell Precision 7960型号一起使用。我们添加了256 GB售后DDR5、NVME驱动器,并用RTX 3070替换了原来的Nvidia T400 4 GB卡。

Precision 5860 可以轻松配置 256 GB 或更多 RAM,满足/超过 BladeBit CUDA 所需的内存量。它们还包括 10 Gbit 以太网,可以轻松地将生成的 BladeBit 绘图复制到远程存储。在具有绘图仪和多个其他带驱动器的节点的分布式 Chia 设置中,减少将绘图传输到其他系统所需的时间可以释放绘图仪,以便更快地恢复绘图工作。对于台式机,可以轻松添加基于 10 Gbit PCIe 的以太网设备,但需额外付费。由于 Precision 5860 是塔式系统,因此更容易为 CUDA 添加商用 RTX GPU。

我们还测量了 BladeBit CUDA 在桌面级系统上的性能,以评估它们对压缩 CPU 耕种的适用性。虽然使用经过测试的 BladeBit CUDA 版本创建 BladeBit CUDA 压缩地块需要 GPU 和 256 GB RAM,但耕种地块可以选择在没有 GPU 和减少内存的情况下完成。

硬件配置总结

软件配置

我们使用于2023年6月23日下载的BladeBit CUDA (v3.0.0-alpha4) 的Alpha版本:https://download.chia.net/BladeBit/alpha4.3/BladeBit-cuda-plotter/DEB/BladeBit- cuda -v3.0.0-alpha4-ubuntu-x86-64.tar.gz

我们在使用 Beta 版本时遇到了此类错误Error 1 while fetching proof for F7 2818314911,因此接下来的分析主要针对 Alpha 4 版本。自本白皮书撰写以来,BladeBit 的新版本已经开始发布。我们希望将来尽可能测试新版本。

BladeBit CUDA 要求

BladeBit CUDA 有几个要求:

  1. 256 GB 系统 RAM。当系统 RAM 量低于此量时,我们观察到 CUDA 内存分配错误。

  2. 至少具有 8 GB VRAM 和 CUDA 计算功能版本 5.2 的 NVIDIA GPU。

在我们的一些(但不是全部)Ubuntu 20.04 系统上,我们遇到了 GLIBC 不匹配,但是,BladeBit CUDA 二进制文件可以在我们尝试过的 Ubuntu 22.04 系统上运行,并且我们发现了一个也可以在 Ubuntu 20 上运行的 BladeBit 二进制文件。

./bladebit_cuda: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.33' not found (required by ./bladebit_cuda)./bladebit_cuda: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.34' not found (required by ./bladebit_cuda)

电量监控方法

CPU/DRAM

为了检查 CPU 和 DRAM 功耗,我们从 Intel 的 RAPL(运行平均功率限制)功能收集了 CPU 和 DRAM 测量结果。我们查询了MSR_PKG_ENERGY_STATUSMSR中的CPU封装功耗数据和MSR_DRAM_ENERGY_STATUSMSR中的DRAM功耗数据。这些 MSR 由运行的 32 位计数器组成,可显示给定时间段内的总功耗。我们在模拟开始前和模拟结束后分别取样。通过从结束值中减去起始值(并在需要时处理任何 32 位溢出),计数器会显示以焦耳为单位的功耗(“Delta”)。然后,我们使用 将该值转换为瓦/秒Delta *(2.3/10000000000)*WORKLOAD_SECONDS,类似于https://lwn.net/Articles/569674/中描述的方法,尽管对原始文章中明显放错位置的括号进行了更改。我们的 11900k 系统仅支持封装功率 RAPL 功能,而不支持 RAPL DRAM 功率监控功能。 

我们还利用sar收集总 CPU 和内存利用率值。

GPU(图形处理器)

对于 GPU 功率测量,我们采集了 1 秒样本,nvidia-smi报告了该时间点消耗的瓦数。(我们的数字中不包括其他功耗来源,例如驱动器/其他外围设备。)

在下一节中,我们将检查 BladeBit CUDA GPU 绘图的性能和功耗。

2. 绘图测量结果

为了给 Chia 农民提供额外的分析,我们进行了几组不同的测量,旨在阐明可扩展性问题、GPU 与 CPU 性能和功耗要求以及各种其他悬而未决的问题。

压缩绘图时间和功耗

Q1. 使用 GPU 创建 BladeBit 压缩图需要多长时间?

Q2:创建不同级别的压缩图所需的 GPU 功耗是多少?

Q3:对于不同的压缩级别,所达到的压缩绘图大小是多少?

我们使用 Dell Precision 5860 和 RTX 3070 测量了所有压缩级别上启用 CUDA 的绘图创建时间。我们为每次测量收集了三组绘图时间,以评估运行之间的变异性。结果中每次运行的差异非常小。 

我们观察到所有压缩级别的地块创建时间都非常快,不到 3 分钟。每个 BladeBit CUDA 所需的 GPU 内存对于所有地块大小都是恒定的,而所需的系统内存量会随着压缩大小的增加而减少,范围从约 241 GB 到约 192 GB。我们观察到每个 Nvidia SMI 所需的最大 GPU RAM 略高。目前,压缩地块大小范围从 88 GB (C1) 到 76 GB (C9),具体取决于选择的压缩级别。回想一下,此版本中 C9 压缩大小尚未最终确定。)根据 Nvidia SMI,RTX 3070 GPU 瓦数在 98-105 瓦之间。CPU 总利用率约为 4%,表明地块创建已完全卸载到 GPU。表格1总结了绘图结果。

由于绘图时间如此之快,性能限制反而是在将地块卸载到长期旋转存储(rotational storage ),在理想条件下,通过 1 Gbit 以太网传输到旋转磁盘(rotational disk),可能需要大约 15 分钟。Chia 农民应考虑替代方法,将创建的地块暂存在 NVME 驱动器上,然后在后台转移到旋转存储。这种方法将释放 BladeBit CUDA 来继续创建地块,而无需等待缓慢的传输。

图 1A  和图 1B显示了创建地块时每个nvidia-smi的 GPU 功耗。各种压缩大小都具有等效的功率曲线,因此我们仅显示 C1 和 C7。

 表 1:Dell Precision 5860 RTX 3070 地块创建时间

按以下方式测量地块文件大小:)ls -hl

*不支持C8:Compression level 8 is not currently supported.

** 此版本的 CUDA BladeBit 中尚未最终确定 C9 绘图大小。[WARNING] Compression levels greater than 7 are only for testing purposes and are not configured to the final plot size

图 1A:使用 RTX 3070 创建 C1 地块时每秒消耗的瓦数

图 1B:使用 RTX 3070 创建 C7 地块时每秒消耗的瓦数

绘图 RAM 内存使用情况

使用 RTX 3070 绘制 C7 图时检查内存使用情况,数据显示可用 GB 的可用系统内存随着时间的推移而下降,直到达到 27 GB 左右(256 GB 可用内存)。缓存内存随着时间的推移而增加,达到 217 GB 缓存内存(图 2A)。RTX 3070 上的视频内存使用约 6.33 GB VRAM,如图2B所示。

图 2A:绘制 C7 时的系统 RAM 使用情况

图 2B:绘制 C7 时 RTX 3070 视频 RAM 内存使用情况

3. 使用 GPU耕种 Chia 压缩地块

Q4:对于 CUDA 耕种,耕种地块需要多少 CPU 和 GPU 使用率?

BladeBit CUDA 提供了压缩地块模拟功能,允许用户确定为启用 CUDA (GPU) 和非 CUDA (CPU) 的农民建立压缩地块需要多少资源和电力。我们指定 aduration为 600 秒(10 分钟),PARALLEL对于 CUDA 测量值指定为 1,对于基于 CPU 的耕种指定为 CPU 线程计数的倍数。我们将SIZE参数从 250 TB 更改为 6 PB,并PLOTFILE为要测试的压缩级别选择适当的压缩。模拟不接受未压缩的图,因此无法直接与 C0 进行比较。

./bladebit_cuda simulate --power $DURATION -p $PARALLEL --size $SIZE $PLOTFILE

对于 GPU 分析,我们选择了非实验性的最高压缩级别:C7。我们监控了使用的 CPU 和 GPU 资源以及证明时间。作为一般准则,建议将绘图证明时间保持在 30 秒以下。因此,超过此值的配置可能会导致性能不足并失去盈利机会。

RTX 3070 是一款中档卡,于 2020 年 9 月开始发货。虽然它的历史已经有几年了,但结果表明它是一款非常适合耕种 BladeBit CUDA C7 地块的卡。在使用 C7 压缩的 250 TB 到 6 PB 的所有测试场景中,最坏情况下,RTX 3070 仍然能够将绘图查找时间保持在 3 秒以下。

我们注意到,在 6,000 TB (6PB) 之后,BladeBit 模拟器似乎出现了一些意外的性能行为。到这个水平,CPU 利用率和功耗稳步增加。然而,在此之后,CPU 利用率和功耗略有下降。 

下面的表 2 显示了搭载了RTX 3070的 Precision 5860配置下,农场规模在 250 TB 到 6 PB 之间的 Chia 耕种性能。我们观察到最坏情况绘图查找时间均低于 3 秒。电力利用率随着农场规模的增加而增加。由于 GPU 执行大部分处理,CPU 利用率较低。


农场规模(TB)平均 CPU 利用率 %平均用电量(瓦)平均完整名称查找时间(S)最快的完整证明查找时间(S)最坏情况图查找时间(S)
2500.51510.6750.5361.053
5000.69550.7750.5231.584
7500.93641.0850.5222.612
1PB1.10691.0810.5242.117
2PB1.87990.8240.5251.601
3PB2.631300.8930.5232.128
4PB3.331610.8770.5252.130
5PB3.991880.8490.5252.133
6PB4.051890.8040.5252.125
RTX 3070 耕种功耗

我们使用 Nvidia-SMI 实用程序在 10 分钟基准测试中以一秒的间隔记录 GPU 功耗,并绘制结果图表。我们观察到,在计算证明时,一般工作负载是周期性峰值之一。

图3:在RTX 3070上处理250TB C1地块所消耗的瓦特/秒图4:RTX 3070上1PB C1地块消耗的瓦特/秒

图5:在RTX 3070上处理250TB C5地块所消耗的瓦特/秒

图6:在RTX 3070上耕种1PB C5地块消耗的瓦特/秒

图7(左上):在RTX 3070上处理250TB C7地块所消耗的瓦特/秒

图8(右上):在RTX 3070上耕作1PB C7地块消耗的瓦特/秒

RTX 3090 耕种功耗

在检查RTX 3090的功耗时,我们观察到整体功耗明显增加。一般来说,最低功率为 100 瓦,很少低于 100 瓦。对于 C7 压缩,较大的场规模会显着增加 GPU 功耗,如图12所示。

图 9:在 RTX 3090 上处理 250TB C1 地块所消耗的瓦特/秒

图 10:RTX 3090 上 1PB C1 地块消耗的瓦特/秒

图 11(左上):在 RTX 3090 上处理 250TB C7 地块所消耗的瓦特/秒

图 12(右上):在 RTX 3090 上耕种 1PB C7 地块消耗的瓦特/秒

RTX 3070 与 RTX 3090 耕种功耗

比较 250 TB、500TB、1PB 和 6PB 农场中所有压缩大小的 RTX 3070 和 RTX 3090 所需的瓦数,我们发现 RTX 3090 整体需要更多功率。图 13图 14分别显示了 RTX 3070 和 RTX 3090 的扫描结果。

图 13:RTX 3070 耕作消耗的瓦/秒

图 14:RTX 3090 耕作消耗的瓦特/秒

RTX 3070 与 RTX 3090 Chia耕种性能对比

比较 RTX 3070 和 RTX 3090 最坏情况下的响应时间,我们发现两个 GPU 在 30 秒阈值内都表现良好,最坏情况下也低于 4 秒,留出了很大的空间。RTX 3090 全面实现了较低的响应时间,但这并没有带来有意义的实际差异,特别是考虑到 RTX 3090 的功耗大幅增加。

图 15:RTX 3070 和 RTX 3090 的最坏情况图查找时间

图 16:RTX 3070 和 RTX 3090 的平均绘图查找时间

4. 用CPU进行Chia压缩地块耕种

Q4(新问题):创建地块后,耕种地块的 CPU 使用率?

Q5:在没有 GPU 的情况下耕种压缩地块时,使用高端 CPU 比商用台式 CPU 有多少优势?

Q6:高压缩级别是否绝对需要 GPU,或者可以利用强大的 CPU 来处理高度压缩的图吗?

BladeBit CUDA 还支持仅使用 CPU 进行压缩绘图的非 GPU 耕作。对于那些可能使用绘图服务来获取压缩地块或尚未启用 GPU 的农民来说,检查基于 CPU 的耕种效率非常有用。此外,农民可能想知道更高端的 CPU 是否会带来额外的基于 CPU 的压缩地块性能,并考虑 CPU 和 GPU 之间的功耗权衡。

对于此分析,我们收集了所有支持的压缩级别的图。与基于 CUDA 的耕种不同,基于 CPU 的耕种可以利用一个可调参数:并行上下文的数量(number of parallel contexts)。并行上下文数量越多,消耗的内存就越多,并且可以提供增强的线程性能,但是,它们最终受到 CPU 支持的 CPU 线程数量的限制。对于此分析,我们将线程数设置为启用超线程的 CPU 线程总数。对于支持 Big/Little 架构的 Core i9-12900k,我们测量了两种场景:16 线程(高性能核数量)和 24 线程(高性能核 + 效率核)。我们将绘图放置在通过 Samba 托管的驱动器上基于网络的服务器,在被测系统和服务器之间具有千兆位以太网连接。

CPU 耕种性能

对于 250 TB 的农场,除 Core i9 9900k 之外的所有测试 CPU 都可以支持 C7 压缩,最坏情况下的响应时间优于 30 秒,如图17所示。配备 Xeon W5-2455X 的 Dell Precision 在最坏情况下的响应时间为 18 秒。有趣的是,与 24 个线程相比,在 BladeBit 中启用 16 个线程时,Core i9-12900k 返回了更好的时间,这表明该软件可能无法从额外的较小内核中受益。

对于 500 TB 农场(图 18),所有测试的 CPU 都无法满足 30 秒的最坏情况图查找时间。配备 Xeon W5-2455X 的 Dell Precision 5860 分别达到了 40 秒。Core i9 9900k 的延迟时间为 110 秒,可见其老化程度。在 C6 压缩下,Dell Precision 5860 达到了 20 秒。

当农场大小增加到 750 TB(如图 19所示)时,所有测试的 CPU 都无法满足 C6 和 C7 的 30 秒最坏情况图查找时间。对于 C6,Dell Precision 5860 只差了 30 秒,分别达到了 32 秒。降至 C5 压缩后,Core i9 12900k 的 16T(25 秒)和 24T(26 秒)、Dell Precision 5860(22 秒)的响应时间可以达到 30 秒以下。Core i9 11900k 和 Core i9 9900k 需要降至 C4 压缩才能达到最后期限,并在 C4 上分别获得 24 秒和 21 秒的最坏情况图查找时间(750 TB)。

在 1PB 农场中(图 20),所有测试的 CPU 都需要降至 C5 或 C4 压缩,以将最坏情况绘图查找时间保持在 30 秒以下。戴尔 Precision 5860 的成绩为 28 秒,成绩为 C5。在 C4 中,Core i9 12900k 16T 达到了 14 秒,而在 24T 配置下则降至 18 秒。Core i9 11900k 在 C4 下得分为 25 秒,而 Core i9 11900k 需要降至 C3 压缩才达到 13 秒。

图 17:基于 CPU 的耕种最坏情况图查找时间 - 250 TB

图 18:基于 CPU 的耕种最坏情况图查找时间 - 500 TB

图 19:基于 CPU 的耕种最坏情况图查找时间 - 750 TB

图 20:基于 CPU 的耕种最坏情况图查找时间 - 1PB

总结结果,图 21显示了基于 CPU 的压缩耕种的最高压缩级别,满足最坏情况阈值时间。  

  • 对于 250 TB 农场,除了 Core i9 9900k 之外的所有 CPU 都可以满足 C7 之前的 30 秒截止时间。Core i9 9900k 需要降级到 C6 才能满足此农场规模的最后期限。

  • 对于 500 TB 农场,配备 Xeon W5-2455X 的 Dell Precision 可以利用 C6 压缩,而其余 CPU 则降至 C4 或 C5。

  • 对于 750 TB 农场,除了 Core i9 9900k 需要降至 C4 之外,所有 CPU 都需要利用 C5。

  • 对于 1 PB 农场,Xeon W5-2455X 在 30 秒的最后期限内达到了 C5,而 Core i9 12900k 和 Core i9 11900k 需要降至 C4。Core i9 9900k 需要进一步降至 C3 压缩。

图 21:基于 CPU 的耕种 - 满足 30 秒响应时间的最高压缩级别

对于平均绘图查找时间,图 22A图 22B分别显示 250 TB 和 500 TB 平均绘图查找时间。图 23A图 23B分别显示了 750TB 和 1PB 平均图查找时间。

图 22A:250 TB 平均绘图查找时间

图 22B:500 TB 平均绘图查找时间

图 23A:750 TB 平均绘图查找时间

图 23B:1PB 平均绘图查找时间

CPU 耕种所需的系统内存

所需的系统内存量随着压缩级别和并行上下文(线程)的增加而增加。根据 BladeBit 的计算,对于给定级别的线程,系统 RAM 要求似乎随着压缩级别的增加而大致增加一倍。表 3总结了结果。

表 3:使用的系统内存 (GiB)、CPU 占用

线程数C1C2C3C4C5C6C7
160.10.20.30.71.32.65.2
240.10.20.51.02.03.97.8
320.20.30.71.32.65.210.4
480.30.51.02.03.97.815.6
960.51.02.03.97.815.631.3
1440.81.53.05.911.723.546.9

5. CPU/GPU功耗对比

Q7:CPU 与 GPU 耕种的功耗权衡是什么?

鉴于 CPU 和 GPU 都可以处理压缩图,关键的区别在于性能和功效。为了检查这些因素,我们利用 RAPL 来监控基于 CPU 的农业和基于 GPU 的农业的 CPU 和内存功耗。对于基于 GPU 的农业场景,我们还包括来自nvidia-smi的 GPU 功率测量。

CPU利用率和功耗

功耗的一个关键因素是 CPU 保持忙碌的程度。当允许 CPU 空闲时,它可以进入更深的睡眠状态。但是,如果 CPU 保持活动状态,则无法达到更深的睡眠状态并消耗更多电量。

为了显示系统 CPU 在严格的基于 CPU 的耕作场景下的行为,我们收集了 Dell Precision 5860 的 Xeon W5-2455X 耕作 1PB C7 压缩图的总 CPU 利用率(用户 + 系统时间)。图 24显示了 CPU 在较繁忙和较不繁忙的活动时段之间频繁转换的结果。峰值达到 100% 会定期发生。

图 24:配备 Xeon W5-2455X 的 Dell Precision 5860 的总 CPU 利用率,处理 1PB 的 C7 绘图

一个关键问题是 GPU 的额外成本是否可以导致 CPU 功耗的充分降低,从而超过向系统添加另一个组件所产生的功耗成本。

基于CPU的耕种功耗

我们首先检查配备 Xeon W5-2455X 的 Dell Precision 上基于 CPU 的耕种场景的 RAPL 功耗。通过检查 Xeon W5-2455X 用于耕种压缩地块的 RAPL 功率数据,我们调查了 250 TB、500 TB、750 TB 和 1 PB 农场规模的 C1 和 C7 之间的所有压缩级别。图 25总结了结果,我们注意到:

  • 对于 250 TB 农场,(CPU + DRAM)功耗范围为 250 TB 场的 C1 时的 54.38W 到 C7 时的 78.41 W,具体取决于压缩级别。

  • 500 TB 农场功耗范围从 C1(CPU + DRAM)的总功耗 55.43W 到 C7 的 118.81W。

  • 750 TB 农场功耗范围从 C1(CPU + DRAM)的总功耗 56.49W 到 C7 的 156.74W。

  • 在 1 PB 农场功耗范围从 C1(CPU + DRAM)的总计 57.42W 到 C7 的 186.26W。

基于GPU的耕种功耗

图 26中,我们显示了 Xeon W5-2455X 的 RAPL 数据,包括从nvidia-smi收集的 GPU 功耗。我们观察到,对于这些地块大小,CPU + DRAM 功耗在不同压缩级别上大致恒定,这是有道理的,因为 CPU 负载最小,并且在农场大小和压缩级别上大致恒定。GPU 增加的功耗至少增加了 45.8W 的功耗,并且随着农场大小的增加而适度增长,对于 1PB C7 场景,功耗最高可达 73.2W。

为了检查 Dell Precision W5-2455X 与 RTX 3070 的一些潜在权衡情况,我们提供了以下比较。具有不同 CPU 和 GPU 组合的用户可以执行类似的估计来确定压缩级别的 ROI。此外,诸如 Core i9 9900k 等功能较弱的 CPU 将支持较低的压缩级别(例如,从 C6 降至 C3,具体取决于农场规模),这也会影响估计值。

250 TB:即使对于这种规模的农场进行 C7 压缩,至强 W5-2455X 也可以保持足够的最坏情况绘图查找时间,并且不需要 GPU 带来的额外电力成本。
250TB农场CPU功耗内存功耗GPU功耗总功耗
中央处理器C763.1W15.2W不适用78.4W
RTX 3070 C741.5W12.8W52W106.4W
500 TB:至强 W5-2455X 可以在 C6 压缩下为 500 TB 农场保持足够的最坏情况绘图查找时间。Chia 农民可以选择在 CPU 上坚持使用 C6 压缩,也可以利用 RTX 3070 利用 C7 压缩,但需要额外的电力成本。
500TB农场CPU功耗内存功耗GPU功耗总功耗
中央处理器C668.3W15.6W不适用83.9W
RTX 3070 C641.4W12.8W47.6W101.8W
RTX 3070 C741.7W12.8W57.5W112W
750 TB:至强 W5-2455X 在 C5 压缩下为 750 TB 农场实现了足够的最坏情况图查找时间。农民可以选择 66W 的 CPU C5 压缩或利用 RTX 3070 119.8W 的 C7 压缩。
750TB农场CPU功耗内存功耗GPU功耗总功耗
中央处理器C552.2W13.7瓦不适用66W
RTX 3070 C541.3W12.9W44.7W98.9W
RTX 3070 C741.9W12.8W65.1W119.8W

1PB:回想一下,Xeon W5-2455X 通过将 1PB 农场降低到 C5 压缩,可以将最坏情况下的响应时间维持在 30 秒以下。Chia 农民可以决定 79 GB C5 地块和 82 GB C7 地块之间的额外压缩差异是否值得在利用 GPU 时付出额外的电力成本。


1PB农场CPU功耗内存功耗GPU功耗总功耗
中央处理器C556.9W14W不适用70.9W
RTX 3070 C541.4W12.9W45.9W100.2W
RTX 3070 C742.1W12.8W73.2W128.1W

图 25:配备 Xeon W5-2455X CPU 的 Dell Precision 5860 基于 CPU 的耕作功耗

图 26:使用配备 Xeon W5-2455X + RTX 3070 的 Dell Precision 5860 进行基于 GPU 的农业的功耗

6. 结论

压缩农场的出现为农民提供了一些关于性能、功耗和总体投资回报率方面有趣但又困难的选择。随着电力成本上升和Chia价格增长缓慢,考虑到可持续运营,不一定要仓促进入最高的压缩状态。此外,各个压缩级别之间所实现的地块大小可能不足以产生更高的电力成本来实现可用的最高压缩。在某些情况下,采用适度压缩级别和强大的 CPU 搭配可能是避免 GPU 功耗的一个有吸引力的替代方案。然而,对于大型农场来说,GPU 应用场景的高性能变得引人注目,尽管功耗也明显增加。使用 GPU 的农民还应该仔细考虑 GPU 的电源效率,因为使用 RTX 3090 会显着增加功耗,而不会显着提高耕种性能。即使 RTX 3070 在截止日期内提供 C7 最坏情况绘图查找时间,还是推荐更多的调查,以考虑功耗更小的更普通的 GPU。 

绘图(Plotting)

通过基于 GPU 的快速绘图,可将绘图创建时间缩短至不到三分钟,瓶颈现在转移到尽快从绘图仪卸载绘图。否则,在进行慢速磁盘或网络复制时,绘图将停止。如果不仔细关注卸载绘图的性能,到旋转存储的数据传输时间将占据主导地位,并大大降低总体 BladeBit 绘图性能。农民应该研究首先将完成的地块转储到 NVME 存储的选项,然后使用工具/脚本将它们移动到后台的最终轮换存储位置。

当前绘图需要 256 GB 内存,迫使人们购买更高规格的设备,例如服务器和工作站。虽然这些可以在二手市场上获得,但它们通常是许多奇亚农民没有的系统类别。折衷解决方案(例如利用 SSD 空间代替物理内存)有助于将 GPU 绘图引入更多系统。

有趣的是,支持 48 GB 内存 Dimm(总共高达 192 GB)的第 12 代和第 13 代 Intel 台式机主板接近绘制压缩级别 9 绘图(“C9”)所需的内存容量,尽管主机需要一些内存操作系统和正在运行的应用程序也是如此。如果 BladeBit CUDA 能够稍微减少 C9 的内存需求,这可能会开辟一种新的压缩绘图桌面系统。

耕种(Farming)

Chia农场经常使用从各种来源购买的各种台式机/服务器,对于许多农场来说,运行节能运行是关键。由于 Chia 旨在成为更绿色的加密货币,因此能够运行节能农场对于社区的大部分人来说非常重要。一些场可能需要仔细考虑其 CPU 和 GPU 组合,以确定实现的存储容量和功耗的合理折衷。测量结果显示,Xeon W5-2455X 等高端 CPU 可以实现比商用台式机更高级别的压缩,但仍达不到 GPU 所能提供的水平。使用低功耗 CPU 的Chia农民可能需要谨慎利用压缩级别,这会导致绘图查找时间延长,从而可能危及收益。

展望未来

BladeBit 压缩技术发展非常迅速,随着 2.0 Chia 软件的新发布,更多的农民将有兴趣确定压缩技术是否适合他们的选择。

其他问题 /反馈

当然,还有许多其他未解答的问题可以在后续的文章中解决。例如,BladeBit CUDA 和 Gigahorse 相比如何?高端 GPU 为绘图提供了哪些改进?低端 GPU 或 CPU 的表现如何? 

敬请读者提出您感兴趣的特定场景/问题,以便将来可能进行分析。

我们力求准确性,如果您发现任何拼写错误或更正,请随时告诉我们,以便我们修复/更新文章。

【联系方式】tech@scienceofmining.com

查看硬件注释

我们独立购买了本报告使用的所有硬件。


深度研究



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存